在这项工作中,我们介绍了患者生成的含量中第一个用于德国不良药物反应(ADR)检测的语料库。该数据包括来自德国患者论坛的4,169个二进制注释的文档,用户谈论健康问题并从医生那里获得建议。正如该领域的社交媒体数据中常见的那样,语料库的类标签非常不平衡。这一主题不平衡使其成为一个非常具有挑战性的数据集,因为通常相同的症状可能会有几种原因,并且并不总是与药物摄入有关。我们旨在鼓励在ADR检测领域进行进一步的多语性努力,并使用基于多语言模型的零和少数学习方法为二进制分类提供初步实验。当对XLM-Roberta进行微调首先在英语患者论坛数据上,然后在新的德国数据上进行微调时,我们的正面级别的F1得分为37.52。我们使数据集和模型公开可供社区使用。
translated by 谷歌翻译